New York Times | 2024-04-15 | 18:13:04

ИИ Има проблем с измерването

Има проблем с водещи принадлежности за изкуствен интелект като ChatGPT, Gemini и Claude: Ние в действителност не знаем какъв брой са умни.

Това е по този начин, тъй като за разлика от фирмите, които създават коли или медикаменти или бебешка формула, A.I. от фирмите не се изисква да изпращат продуктите си за тестване, преди да ги пуснат на обществеността. Няма щемпел за положително домакинство за A.I. чатботове и малко самостоятелни групи ползват тези принадлежности през своите стъпки по непоколебим метод.

Вместо това ни остава да разчитаме на изказванията на AI. компании, които постоянно употребяват неразбираеми, размити изречения като „ усъвършенствани благоприятни условия “, с цел да опишат по какъв начин техните модели се разграничават от една версия до друга. И макар че има някои общоприети проби, дадени на A.I. модели, с цел да оценят какъв брой са положителни, да речем, по математика или логичен разсъждения, доста специалисти имат подозрения по отношение на това какъв брой надеждни са тези проби в реалност.. Но се убедих, че неналичието на положително премерване и оценка за ИИ. системи е сериозен проблем.

се похвали, че е отбелязал 90 % на MMLU – най-високият резултат, регистриран в миналото.)

Дан Хендрикс, A.I. откривател по сигурността, който оказа помощ за създаването на MMLU, до момента в който беше в аспирантура в Калифорнийския университет, Бъркли, ми сподели, че пробата в никакъв случай не е трябвало да се употребява за фукане. Той беше угрижен от това какъв брой бързо A.I. системите се подобряваха и искаше да насърчи откривателите да го одобряват по-сериозно.

Г-н. Хендрикс сподели, че въпреки да счита, че MMLU „ евентуално има още година или две период на валидност “, скоро ще би трябвало да бъде сменен от разнообразни, по-трудни проби. ИИ системите стават прекомерно умни за тестванията, които имаме в този момент, и става все по-трудно да се проектират нови.

„ Всички тези индикатори са неверни, само че някои са потребни, " той сподели. „ Някои от тях могат да обслужват някаква полза за избран интервал от време, само че в един миг върху тях се оказва толкоз огромен напън, че доближава своята точка на спиране. “

Има десетки други проби – с имена като TruthfulQA и HellaSwag – които са предопределени да уловят други аспекти на ИИ. продуктивност. Но тъкмо както SAT улавя единствено част от интелекта и качествата на ученика, тези проби са в положение да измерят единствено тясна част от ИИ. мощността на системата.

съди OpenAI, основателя на ChatGPT, и неговия сътрудник, Microsoft, по искове за нарушение на авторски права, включващи системи с изкуствен интелект, които генерират текст.)

Възможно е да има проблеми и със самите проби. Няколко откриватели, с които приказвах, предизвестиха, че процесът на администриране на сравнителни проби като MMLU варира леко от компания до компания и че резултатите на другите модели може да не са непосредствено сравними.

Има е проблем, прочут като „ замърсяване на данни “, когато въпросите и отговорите за сравнителни проби са включени в A.I. данните за образование на модела, което всъщност му разрешава да мами. И няма самостоятелен развой на тестване или одит за тези модели, което значи, че A.I. фирмите всъщност правят оценка личните си домашни.

Накратко, ИИ. измерването е неразбория - плетеница от небрежни проби, съпоставения на ябълки с портокали и самообслужваща реклама, която остави потребителите, регулаторите и ИИ. самите разработчици хващат в тъмното.

основават и следят нови способи за оценка на ИИ. системи.)

Известен прогрес се вижда и отвън университетските среди. Миналата година откриватели от Станфорд показаха нов тест за ИИ. модели на изображения, които употребяват човешки оценители, а не автоматизирани проби, с цел да дефинират какъв брой кадърен е даден модел. И група откриватели от Калифорнийския университет, Бъркли, неотдавна започнаха Chatbot Arena, известна ранглиста, която опълчва анонимни, рандомизирани A.I. модели един против различен и моли потребителите да гласоподават за най-хубавия модел.

A.I. фирмите също могат да оказват помощ, като се ангажират да работят с оценители и инспектори от трети страни, с цел да тестват техните модели, като създадат новите модели по-широко налични за откривателите и като бъдат по-прозрачни, когато техните модели се актуализират. И в медиите се надявам, че в последна сметка ще се появи някаква обява в жанр Wirecutter, която да поеме задачата да прегледа нов ИИ. артикули по непоколебим и благонадежден метод.

Изследователи в Anthropic, A.I. компания, написа в обява в блог предходната година, че „ ефикасният ИИ. ръководството зависи от нашата дарба да оценяваме свястно A.I. системи. ”

Съгласен съм. Изкуственият разсъдък е прекомерно значима технология, с цел да бъде оценен въз основа на трептения. Докато не получим по-добри способи за премерване на тези принадлежности, няма да знаем по какъв начин да ги използваме или дали напредъкът им би трябвало да се чества или да се опасявам.

Източник: nytimes.com

Свързани новини

има проблем проблем измерването проблем измерването

Коментари

ИИ Има проблем с измерването

Свързани новини

Коментари

Подобни новини

Топ новини

Актуални новини

Още новини

Информация